2025-06-222025-06-25 随手记 7 分钟读完 (大约1073个字) 0次访问

@OneRec: 希望更多的人来研究端到端推荐

链接： OneRec: 希望更多的人来研究端到端推荐 - 知乎

当前的推荐模型架构，广义scaling law最明显的仅在：#card

1. 行为序列长度
1. 打分候选集。

如果坚信广义的scaling law，模型算力投入越大，效果越好，我们要回答三个问题：#card

其实这条路还有很多事情可以做，希望有更多的同行进来一起走这条路，我们目前正在研究的主要是几个问题：

大方向：
- 端到端之后，RL特别有效。但什么是好的推荐结果，本身是一个没定义好的问题，#card
  - 因此reward system是一个推荐领域非常值得研究的问题。
  - 可能有些观点会认为learning2rank已经研究过这些了，不过我认为还有挺大的研究空间吧。
  - 毕竟以前那些RL 做learning2rank的工作，只能影响重排，解空间太小了，对系统影响都很小。挺多结论在端到端系统上会变化。
- 更明显和solid的模型尺寸scaling law。#card
  - 这个我们重构完模型结构设计后有一些进展，看起来还比较promising，估计很快OneRecV2出来就有更清晰的scaling law了。
  - 顺利的话，还挺期待的。这样我们就有机会画出一条线，横轴是公司需要投入的计算成本金额，纵轴是提升的业务数据。大伙儿去申请机器就变得容易了：）
- 怎么把推荐行为模态和其他多模态在一个LLM基座上对齐。#card
  - 这个还是挺关键的，如果能对齐的话推荐模型就可以在文本空间进行推理思考，做深度检索，才会让模型达到一个新的高度。
  - 这本身也是我们做OneRec的终极目标。我们有一些思路，看到了眉目，目前可以告诉大家推荐行为模态和LLM肯定是能实现对齐的。但当下进展太小了，就不拿出来贻笑大方了。
还是open到底，把一些更细节一点的迭代也share出来吧，如果大家做得更快就太好了，我们直接用。估计V2就一起和大家见面了，还有一些可能比较小但是作用较大的事也在迭代：
- 现在的tokenizer其实很简单，我们做了一套端到端的tokenizer方案，目前看也是有提升的。#card
  - 这里的一个关键是不能做残差的编码，得做类似llm的平行tokenizer，不然模型的检索空间会很小，永远都不可能思考。
- 现在生成的模型结构里，除了没办法做target item的attention之外，target item本身的feature也没办法加进去，比如视频的作者信息。#card
  - 我们在做一个item rag，用生成token的前缀去检索相关的item list然后做feature总结。
  - user rag就不太需要做了，本身新模型结构里能把序列长度拉到上万没啥成本。更长的部分准备用压缩和sparse att的方法。

@OneRec: 希望更多的人来研究端到端推荐

https://blog.xiang578.com/post/logseq/@OneRec: 希望更多的人来研究端到端推荐.html

作者

Ryen Xiang

发布于

2025-06-22

更新于

2025-06-25

@OneRec: 希望更多的人来研究端到端推荐

作者

发布于

更新于

许可协议

网络回响

评论

最新文章